当前位置: 开发笔记 > 编程语言 > 正文

技术|Python的从零开始系列连载（三十一）

作者：13486099491_fb9570 | 来源：互联网 | 2023-09-25 21:07

技术,python,的,从零开始

大家好，上次我们实验了爬取了糗事百科的段子，那么这次我们来尝试一下爬取百度贴吧的帖子。与上一篇不同的是，这次我们需要用到文件的相关操作。

本篇目标

1.对百度贴吧的任意帖子进行抓取

2.指定是否只抓取楼主发帖内容

3.将抓取到的内容分析并保存到文件

1.URL格式的确定

首先，我们先观察一下百度贴吧的任意一个帖子。

比如：http://tieba.baidu.com/p/3138733512?see_lz=1&pn=1，这是一个关于NBA50大的盘点，分析一下这个地址。

http:// 代表资源传输使用http协议

tieba.baidu.com 是百度的二级域名，指向百度贴吧的服务器。

/p/3138733512 是服务器某个资源，即这个帖子的地址定位符

see_lz和pn是该URL的两个参数，分别代表了只看楼主和帖子页码，等于1表示该条件为真

所以我们可以把URL分为两部分，一部分为基础部分，一部分为参数部分。

例如，上面的URL我们划分基础部分是 http://tieba.baidu.com/p/3138733512，参数部分是 ?see_lz=1&pn=1

2.页面的抓取

熟悉了URL的格式，那就让我们用urllib2库来试着抓取页面内容吧。上一篇糗事百科我们最后改成了面向对象的编码方式，这次我们直接尝试一下，定义一个类名叫BDTB(百度贴吧)，一个初始化方法，一个获取页面的方法。

其中，有些帖子我们想指定给程序是否要只看楼主，所以我们把只看楼主的参数初始化放在类的初始化上，即init方法。另外，获取页面的方法我们需要知道一个参数就是帖子页码，所以这个参数的指定我们放在该方法中。

综上，我们初步构建出基础代码如下：

__author__ = 'CQC' # -*- coding:utf-8 -*- import urllib import urllib2 import re #百度贴吧爬虫类 class BDTB: #初始化，传入基地址，是否只看楼主的参数 def __init__(self,baseUrl,seeLZ): self.baseURL = baseUrl self.seeLZ = '?see_lz='+str(seeLZ) #传入页码，获取该页帖子的代码 def getPage(self,pageNum): try: url = self.baseURL+ self.seeLZ + '&pn=' + str(pageNum) request = urllib2.Request(url) respOnse= urllib2.urlopen(request) print response.read() return response except urllib2.URLError, e: if hasattr(e,"reason"): print u"连接百度贴吧失败,错误原因",e.reason return None baseURL = 'http://tieba.baidu.com/p/3138733512' bdtb = BDTB(baseURL,1) bdtb.getPage(1)

运行代码，我们可以看到屏幕上打印出了这个帖子第一页楼主发言的所有内容，形式为HTML代码。

4f05ddc7f2af7d4f15673b69d0aca212cbfe3b46

3.提取相关信息

1）提取帖子标题

首先，让我们提取帖子的标题。

在浏览器中审查元素，或者按F12，查看页面源代码，我们找到标题所在的代码段，可以发现这个标题的HTML代码是

纯原创我心中的NBA2014-2015赛季现役50大

所以我们想提取标签中的内容，同时还要指定这个class确定唯一，因为h1标签实在太多啦。

正则表达式如下

#获取帖子标题 def getTitle(self): page = self.getPage(1) pattern = re.compile('
#获取帖子一共有多少页 def getPageNum(self): page = self.getPage(1) pattern = re.compile('#获取每一层楼的内容,传入页面内容 def getContent(self,page): pattern = re.compile('
 真是醉了，还有一大片换行符和图片符，好口怕！既然这样，我们就要对这些文本进行处理，把各种各样复杂的标签给它剔除掉，还原精华内容，把文本处理写成一个方法也可以，不过为了实现更好的代码架构和代码重用，我们可以考虑把标签等的处理写作一个类。
 那我们就叫它Tool（工具类吧），里面定义了一个方法，叫replace，是替换各种标签的。在类中定义了几个正则表达式，主要利用了re.sub方法对文本进行匹配后然后替换。具体的思路已经写到注释中，大家可以看一下这个类
 
 import re #处理页面标签类 class Tool: #去除img标签,7位长空格 removeImg = re.compile('| {7}|') #删除超链接标签 removeAddr = re.compile('|') #把换行的标签换为\n replaceLine = re.compile('||
|
') #将表格制表替换为\t replaceTD= re.compile('') #把段落开头换为\n加空两格 replacePara = re.compile('') #将换行符或双换行符替换为\n replaceBR = re.compile('

|
') #将其余标签剔除 removeExtraTag = re.compile('<.*?>') def replace(self,x): x = re.sub(self.removeImg,"",x) x = re.sub(self.removeAddr,"",x) x = re.sub(self.replaceLine,"\n",x) x = re.sub(self.replaceTD,"\t",x) x = re.sub(self.replacePara,"\n ",x) x = re.sub(self.replaceBR,"\n",x) x = re.sub(self.removeExtraTag,"",x) #strip()将前后多余内容删除 return x.strip()
 
 在使用时，我们只需要初始化一下这个类，然后调用replace方法即可。
 现在整体代码是如下这样子的，现在我的代码是写到这样子的
 
 __author__ = 'CQC' # -*- coding:utf-8 -*- import urllib import urllib2 import re #处理页面标签类 class Tool: #去除img标签,7位长空格 removeImg = re.compile('| {7}|') #删除超链接标签 removeAddr = re.compile('|') #把换行的标签换为\n replaceLine = re.compile('||
|
') #将表格制表替换为\t replaceTD= re.compile('') #把段落开头换为\n加空两格 replacePara = re.compile('') #将换行符或双换行符替换为\n replaceBR = re.compile('

|
') #将其余标签剔除 removeExtraTag = re.compile('<.*?>') def replace(self,x): x = re.sub(self.removeImg,"",x) x = re.sub(self.removeAddr,"",x) x = re.sub(self.replaceLine,"\n",x) x = re.sub(self.replaceTD,"\t",x) x = re.sub(self.replacePara,"\n ",x) x = re.sub(self.replaceBR,"\n",x) x = re.sub(self.removeExtraTag,"",x) #strip()将前后多余内容删除 return x.strip() #百度贴吧爬虫类 class BDTB: #初始化，传入基地址，是否只看楼主的参数 def __init__(self,baseUrl,seeLZ): self.baseURL = baseUrl self.seeLZ = '?see_lz='+str(seeLZ) self.tool = Tool() #传入页码，获取该页帖子的代码 def getPage(self,pageNum): try: url = self.baseURL+ self.seeLZ + '&pn=' + str(pageNum) request = urllib2.Request(url) respOnse= urllib2.urlopen(request) return response.read().decode('utf-8') except urllib2.URLError, e: if hasattr(e,"reason"): print u"连接百度贴吧失败,错误原因",e.reason return None #获取帖子标题 def getTitle(self): page = self.getPage(1) pattern = re.compile('.*?(.*?)',re.S) result = re.search(pattern,page) if result: #print result.group(1) #测试输出 return result.group(1).strip() else: return None #获取每一层楼的内容,传入页面内容 def getContent(self,page): pattern = re.compile('
 4）替换楼层
 至于这个问题，我感觉直接提取楼层没什么必要呀，因为只看楼主的话，有些楼层的编号是间隔的，所以我们得到的楼层序号是不连续的，这样我们保存下来也没什么用。
 所以可以尝试下面的方法：
 1.每打印输出一段楼层，写入一行横线来间隔，或者换行符也好。
 2.试着重新编一个楼层，按照顺序，设置一个变量，每打印出一个结果变量加一，打印出这个变量当做楼层。
 这里我们尝试一下吧，看看效果怎样
 把getContent方法修改如下
 
 #获取每一层楼的内容,传入页面内容 def getContent(self,page): pattern = re.compile('
运行一下看看效果 
 
 
 嘿嘿，效果还不错吧，感觉真酸爽！接下来我们完善一下，然后写入文件
 4.写入文件
 最后便是写入文件的过程，过程很简单，就几句话的代码而已，主要是利用了以下两句
 file = open(“tb.txt”,”w”)
 file.writelines(obj)
 这里不再赘述，稍后直接贴上完善之后的代码。
 5.完善代码
 现在我们对代码进行优化，重构，在一些地方添加必要的打印信息，整理如下
 
 __author__ = 'CQC' # -*- coding:utf-8 -*- import urllib import urllib2 import re #处理页面标签类 class Tool: #去除img标签,7位长空格 removeImg = re.compile('| {7}|') #删除超链接标签 removeAddr = re.compile('|') #把换行的标签换为\n replaceLine = re.compile('||
|
') #将表格制表替换为\t replaceTD= re.compile('') #把段落开头换为\n加空两格 replacePara = re.compile('') #将换行符或双换行符替换为\n replaceBR = re.compile('

|
') #将其余标签剔除 removeExtraTag = re.compile('<.*?>') def replace(self,x): x = re.sub(self.removeImg,"",x) x = re.sub(self.removeAddr,"",x) x = re.sub(self.replaceLine,"\n",x) x = re.sub(self.replaceTD,"\t",x) x = re.sub(self.replacePara,"\n ",x) x = re.sub(self.replaceBR,"\n",x) x = re.sub(self.removeExtraTag,"",x) #strip()将前后多余内容删除 return x.strip() #百度贴吧爬虫类 class BDTB: #初始化，传入基地址，是否只看楼主的参数 def __init__(self,baseUrl,seeLZ,floorTag): #base链接地址 self.baseURL = baseUrl #是否只看楼主 self.seeLZ = '?see_lz='+str(seeLZ) #HTML标签剔除工具类对象 self.tool = Tool() #全局file变量，文件写入操作对象 self.file = None #楼层标号，初始为1 self.floor = 1 #默认的标题，如果没有成功获取到标题的话则会用这个标题 self.defaultTitle = u"百度贴吧" #是否写入楼分隔符的标记 self.floorTag = floorTag #传入页码，获取该页帖子的代码 def getPage(self,pageNum): try: #构建URL url = self.baseURL+ self.seeLZ + '&pn=' + str(pageNum) request = urllib2.Request(url) respOnse= urllib2.urlopen(request) #返回UTF-8格式编码内容 return response.read().decode('utf-8') #无法连接，报错 except urllib2.URLError, e: if hasattr(e,"reason"): print u"连接百度贴吧失败,错误原因",e.reason return None #获取帖子标题 def getTitle(self,page): #得到标题的正则表达式 pattern = re.compile('.*?(.*?)',re.S) result = re.search(pattern,page) if result: return result.group(1).strip() else: return None #获取每一层楼的内容,传入页面内容 def getContent(self,page): #匹配所有楼层的内容 pattern = re.compile('
现在程序演示如下 
 
 
 完成之后，可以查看一下当前目录下多了一个以该帖子命名的txt文件，内容便是帖子的所有数据。
 抓贴吧，就是这么简单和任性！
 原文发布时间为：2018-11-30
 本文作者：灯塔大数据
 本文来自云栖社区合作伙伴“灯塔大数据”，了解相关信息可以关注“DTbigdata”微信公众号
        

        
        
    



    
        
                        python
                        百度
                        文件
                        http
                        服务器
                        utf-8
                        import
                        爬虫
                        get
                    
    



    
        写下你的评论吧 !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
                                    
                
            
        

        
    

    
        推荐阅读
        
            
                                
                    
                        shell
                        编写有趣的VBScript恶作剧脚本
                    

                    
                                                
                        本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-28 09:46:23
                    

                

                
                                
                    
                        select
                        深入理解Android中的ADB Shell Input命令：模拟滑动、按键和点击事件
                    

                    
                                                
                        在维护公司项目时，发现按下手机的某个物理按键后会激活相应的服务，并在屏幕上模拟点击特定坐标点。本文详细介绍了如何使用ADB Shell Input命令来模拟各种输入事件，包括滑动、按键和点击等。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-26 13:43:24
                    

                

                                
                    
                    
                
                
                                
                    
                        get
                        Installing the MongoDB PHP Driver on XAMPP for macOS
                    

                    
                                                
                        This guide provides a comprehensive step-by-step approach to successfully installing the MongoDB PHP driver on XAMPP for macOS, ensuring a smooth and efficient setup process. ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-27 19:58:25
                    

                

                
                                
                    
                        range
                        导航栏样式练习：项目实例解析
                    

                    
                                                
                            
                        
                                                
                        本文详细介绍了如何创建一个具有动态效果的导航栏，包括HTML、CSS和JavaScript代码的实现，并附有详细的说明和效果图。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-27 19:42:28
                    

                

                
                                
                    
                        const
                        使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表
                    

                    
                                                
                            
                        
                                                
                        本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-27 16:07:12
                    

                

                
                                
                    
                        const
                        UNP 第9章：主机名与地址转换
                    

                    
                                                
                            
                        
                                                
                        本章探讨了用于在主机名和数值地址之间进行转换的函数，如gethostbyname和gethostbyaddr。此外，还介绍了getservbyname和getservbyport函数，用于在服务器名和端口号之间进行转换。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-27 11:26:39
                    

                

                
                                
                    
                        const
                        Unity 客户端框架设计：UI管理系统的构建
                    

                    
                                                
                        本文详细介绍了如何构建一个高效的UI管理系统，集中处理UI页面的打开、关闭、层级管理和页面跳转等问题。通过UIManager统一管理外部切换逻辑，实现功能逻辑分散化和代码复用，支持多人协作开发。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-27 10:28:40
                    

                

                
                                
                    
                        shell
                        使用Vultr云服务器和Namesilo域名搭建个人网站
                    

                    
                                                
                            
                        
                                                
                        本文详细介绍了如何通过Vultr云服务器和Namesilo域名搭建一个功能齐全的个人网站，包括购买、配置服务器以及绑定域名的具体步骤。文章还提供了详细的命令行操作指南，帮助读者顺利完成建站过程。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-26 16:36:34
                    

                

                
                                
                    
                        get
                        Python 爬虫基础教程及代码实例
                    

                    
                                                
                        根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-26 10:42:40
                    

                

                
                                
                    
                        get
                        PostgreSQL 10 离线安装指南
                    

                    
                                                
                            
                        
                                                
                        本文详细介绍了如何在无法联网的服务器上进行 PostgreSQL 10 的离线安装，并涵盖了从下载安装包到配置远程访问的完整步骤。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-25 11:46:55
                    

                

                
                                
                    
                        get
                        HTTP请求与响应机制详解
                    

                    
                                                
                        本文深入探讨了HTTP请求和响应对象的使用，详细介绍了如何通过响应对象向客户端发送数据、处理中文乱码问题以及常见的HTTP状态码。此外，还涵盖了文件下载、请求重定向、请求转发等高级功能。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-23 20:40:08
                    

                

                
                                
                    
                        heap
                        优化ListView性能
                    

                    
                                                
                            
                        
                                                
                        本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-28 10:36:30
                    

                

                
                                
                    
                        get
                        Handling Null Object Encoding in OAuth 1.0a API Implementation
                    

                    
                                                
                        Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-28 08:54:34
                    

                

                
                                
                    
                        regex
                        Java面试题解析
                    

                    
                                                
                        本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-27 13:55:14
                    

                

                
                                
                    
                        get
                        MQTT技术周报：硬件连接与协议解析
                    

                    
                                                
                            
                        
                                                
                        本周开发笔记重点介绍了在新项目中使用MQTT协议进行硬件连接的技术细节，涵盖其特性、原理及实现步骤。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-27 11:30:44
                    

                

                
                
                                
                    
                    
                    
                
                

            
        
    



















    

    
        
            
            
                
                
            

            
                13486099491_fb9570            

            
                这个家伙很懒，什么也没留下！            


        
    

    
    

    
    

    
        Tags | 热门标签
        
            
                                
                    php8
                
                                
                    perl
                
                                
                    ip
                
                                
                    substring
                
                                
                    bash
                
                                
                    php
                
                                
                    testing
                
                                
                    web3
                
                                
                    match
                
                                
                    fetch
                
                                
                    js
                
                                
                    get
                
                                
                    shell
                
                                
                    range
                
                                
                    python2
                
                                
                    keyword
                
                                
                    lua
                
                                
                    merge
                
                                
                    const
                
                                
                    dll
                
                                
                    php5
                
                                
                    typescript
                
                                
                    flutter
                
                                
                    select
                
                                
                    erlang
                
                                
                    regex
                
                                
                    heap
                
                                
                    tree
                
                                
                    frameworks
                
                                
                    spring
                
                                
            
        
    

    
    
        
            
            
        
        RankList | 热门文章
        
            
                                
                    1行车记录仪的循环录制一般设置多长时间？
                
                                
                    2AD18输出制造文件Gerber并下单打样PCB
                
                                
                    3oppor3怎么设置主屏？
                
                                
                    4EDA可编程逻辑器件基础（PLD分类介绍）
                
                                
                    5电脑绘制流程图操作方法
                
                                
                    6excel多个工作表合并怎么操作
                
                                
                    7格之格易加粉PRO+硒鼓颠覆传统，重新定义易加粉！
                
                                
                    8第三方的 magsafe 安全吗，会影响手机电池性能么
                
                                
                    9语雀的随机字符串路由匹配是如何实现的？
                
                                
                    10原版Win10系统重装详细操作教程
                
                                
                    11如何快速的给EXCEL中图表添加颜色和改变字体？:图表背景设置
                
                                
                    12Photoshop CC怎样一键去模糊防抖
                
                                
                    13最新经营级秀出打赏系统源码+带支付/视频教程
                
                                
                    14建筑物沉降观测点的设置
                
                                
                    15魅族16sPro怎么安装软件
                
                            
        
    
    
    



    PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具  | 在线工具

    Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved  |   京公网安备 11010802041100号  |  京ICP备19059560号-4 | PHP1.CN 第一PHP社区      版权所有